智能论文笔记

The effective noise of Stochastic Gradient Descent

Francesca Mignacco , Pierfrancesco Urbani

分类：机器学习 | (统计)机器学习

2021-12-20

随机梯度下降（SGD）是深度学习技术的工作主控算法。在训练阶段的每个步骤中，从训练数据集中抽取迷你样本，并且根据该特定示例子集的性能调整神经网络的权重。迷你批量采样过程将随机性动力学引入梯度下降，具有非琐碎的状态依赖性噪声。我们在原型神经网络模型中表征了SGD的随机和最近引入的变体持久性SGD。在占地面定的制度中，在最终训练误差是阳性的情况下，SGD动力学达到静止状态，我们从波动耗散定理定义了从动态平均场理论计算的波动定理的有效温度。我们使用有效温度来量化SGD噪声的幅度作为问题参数的函数。在过度参数化的制度中，在训练错误消失的情况下，我们通过计算系统的两个副本之间的平均距离来测量SGD的噪声幅度，并具有相同的初始化和两个不同的SGD噪声的实现。我们发现这两个噪声测量与问题参数的函数类似。此外，我们观察到嘈杂的算法导致相应的约束满足问题的更广泛的决策边界。

translated by 谷歌翻译

我们以封闭的形式分析了随机梯度下降（SGD）的学习动态，用于分类每个群集的高位高斯混合的单层神经网络，其中每个群集分配两个标签中的一个。该问题提供了具有内插制度的非凸损景观的原型和大的概括间隙。我们定义了一个特定的随机过程，其中SGD可以扩展到我们称呼随机梯度流的连续时间限制。在全批处理中，我们恢复标准梯度流。我们将动态平均场理论从统计物理应用于通过自成的随机过程跟踪高维极限中算法的动态。我们探讨了算法的性能，作为控制参数脱落灯的函数，它如何导航损耗横向。

translated by 谷歌翻译